Aprendizaje por Diferencias Temporales Mirror-Prox Inducido por el Comportamiento para una Predicción Fuera de Política más Rápida
<meta content=Aprende cómo Mirror-Prox inducido por comportamiento acelera la predicción fuera de política. Técnica eficiente para aprendizaje por refuerzo.>